白葡萄酒数据集分析


1 单变量探索部分

## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##     alcohol         quality     
##  Min.   : 8.00   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.40   Median :6.000  
##  Mean   :10.51   Mean   :5.878  
##  3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :14.20   Max.   :9.000

1.1 单变量绘图

1.1.1 品质

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

评分标准为0-10分,但本数据集中样品的质量评分在3至9之间,大部分样品的评分在5至7之间,其中评分为6的样品最多, 有20个样品的评分为3,评分较差,另有5个样品的评分为9,评分较高。

1.1.2 乙醇

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

乙醇是酒最主要的成分, 样品中乙醇含量(体积比)在8.00%和14.20%之间。

1.1.3 酸性成分

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820

样品的pH值在2.72至3.82之间,均呈酸性,接近正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200

样品的非挥发性酸含量平均值为6.855 g/dm^3。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000

挥发性酸含量在0.08 g/dm^3至1.10 g/dm^3之间。

查阅资料得知,食品中总酸含量为挥发性酸和非挥发性酸含量总和,添加新变量总酸(total.acid)并进行探索。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.110   6.570   7.070   7.133   7.590  14.470

样品中总酸含量平均值为7.133 g/dm^3。
食品中总酸含量与pH值并不对等,但应该有一定关联,后续工作可以尝试探索。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600
##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 746   746           7.4             0.20        1.66            2.1
## 3153 3153           7.6             0.25        1.23            4.6
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 746      0.022                  34                  113 0.99165 3.26
## 3153     0.035                  51                  294 0.99018 3.03
##      sulphates alcohol quality total.acid
## 746       0.55    12.2       6       7.60
## 3153      0.43    13.1       6       7.85

大部分样品的柠檬酸含量接近正态分布,有2个样品的柠檬酸含量明显高于其他样品。

1.1.3 残余糖分

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800
##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 2782 2782           7.8            0.965         0.6           65.8
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 2782     0.074                   8                  160 1.03898 3.39
##      sulphates alcohol quality total.acid
## 2782      0.69    11.7       6      8.765

有1个样品的糖分含量高达65.8 g/dm^3,可能属于异常值。
糖分含量分布呈右偏斜,对糖分含量进行对数转换后作图。

对数转换后,大致呈双峰正态分布, 可以看出样品残余糖分含量差别较大。

1.1.4 矿物盐

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600

氯化物含量平均值约为0.0458 g/dm^3。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4700  0.4898  0.5500  1.0800

硫酸盐含量平均值为0.49 g/dm^3。

1.1.5 二氧化硫

二氧化硫作为食品添加剂被添加到葡萄酒中,具有保鲜、防腐、抗氧化的作用。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00
##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 4746 4746           6.1             0.26        0.25            2.9
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 4746     0.047                 289                  440 0.99314 3.44
##      sulphates alcohol quality total.acid
## 4746      0.64    10.5       3       6.36

游离二氧化硫平均值为35.31 mg/dm^3, 有1个样品的游离二氧化硫含量高达289 mg/dm^3,其品质评分为3分,可能是由于游离二氧化硫含量过高对嗅觉有刺激,导致感官评价不佳。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0
##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 1418 1418           8.6             0.55        0.35          15.55
## 4746 4746           6.1             0.26        0.25           2.90
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 1418     0.057                35.5                366.5 1.00010 3.04
## 4746     0.047               289.0                440.0 0.99314 3.44
##      sulphates alcohol quality total.acid
## 1418      0.63    11.0       3       9.15
## 4746      0.64    10.5       3       6.36

编号为4746的样品总二氧化硫含量为440 g/dm^3,与游离二氧化硫最高的是同一个样品。
结合资料,创建新变量非游离二氧化硫(fixed.sulfur.dioxide), 探究其分布情况。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0    78.0   100.0   103.1   125.0   331.0

非游离二氧化硫平均值为103.1 mg/dm^3。

1.1.6 密度

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

由图中看出样品的密度分布较集中, 平均为0.994 g/cm^3, 放缩坐标轴使绘图更直观。

葡萄酒样品密度整体来说比较稳定。

1.2 单变量分析小结

  • 大多数指标的分布较接近正态分布,残余糖分的含量分布呈右偏斜,进行对数转换后,分布大致呈双峰正态分布。
  • 本数据集中的品质指标为感官评分,我感兴趣的主要有pH值、二氧化硫(包括游离二氧化硫和总二氧化硫)、糖及乙醇的含量对白葡萄酒感官的影响是否呈一定规律。
  • 创建了变量总酸(total.acid),想分析作为综合指标的总酸是否会影响葡萄酒品质评分。
  • 创建了变量非游离二氧化硫(fixed.sulfur.dioxide),想分别分析非游离二氧化硫、游离二氧化硫和总二氧化硫哪个指标对葡萄酒感官品质影响更明显。

2 双变量探索部分

探索各变量之间是否有一定关联。

2.1 散点图矩阵

借助散点图矩阵探索各变量之间的关系。

由散点矩阵图看到,残余糖分和密度相关系数为0.839,乙醇和密度的相关系数为-0.78。
密度与品质的相关系数为-0.307,乙醇与品质的相关系数为0.436,值得进一步探索。
此外,总酸和非挥发性酸之间相关系数为0.993,总二氧化硫和非游离二氧化硫之间相关系数为0.922,但由于总酸和非游离二氧化硫都是通过原有变量进行计算而创建的新变量,与原有变量之间呈现出强相关性并无太大意义。

2.2 双变量分组绘图

添加拟合线,调整坐标轴范围,聚焦需要观察的区域。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$residual.sugar and white_wine$density
## t = 107.87, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8304732 0.8470698
## sample estimates:
##       cor 
## 0.8389665

残余糖分越多的葡萄酒,其密度也相应越大,两者相关系数达0.839。

调整数据点透明度,添加拟合线,聚焦需要观察的区域。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$alcohol and white_wine$density
## t = -87.255, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7908646 -0.7689315
## sample estimates:
##        cor 
## -0.7801376

乙醇和密度相关系数为-0.78。葡萄酒最主要的成分为水和乙醇,乙醇密度小于水,随着乙醇比例增大,酒液整体密度逐渐变小,所以两者呈负相关也是符合常理的。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$total.acid and white_wine$pH
## t = -33.116, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4503932 -0.4046240
## sample estimates:
##        cor 
## -0.4277827

大致可看出总酸度越大,pH值越低的趋势,两者相关性并不强是因为pH值反映的是游离的氢离子的浓度,而总酸度对应的是液体中所有的酸。

本次EDA分析最重要目标是探究各理化指标对品质评分的关系,因此接下来将围绕品质评分进行进一步探索。

上图展示品质评分与乙醇含量的关系,增加抖动并叠加箱线图使数据点分布情况展示更加清晰。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$alcohol
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4126015 0.4579941
## sample estimates:
##       cor 
## 0.4355747

综合来看,乙醇含量越高的葡萄酒,其品质评分也越高。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$volatile.acidity
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2215214 -0.1676307
## sample estimates:
##       cor 
## -0.194723

总体来看,挥发性酸含量较低的样品,品质评分较高,这可能是由于挥发出的酸性气味会影响嗅觉感官。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$total.acid
## t = -9.6284, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1637012 -0.1087283
## sample estimates:
##        cor 
## -0.1363197

总酸量较高的葡萄酒,其品质评分稍低,可能是因为太酸使口感变差。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$fixed.sulfur.dioxide
## t = -15.62, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2443831 -0.1910269
## sample estimates:
##        cor 
## -0.2178678

相对来说,非游离二氧化硫含量高的葡萄酒品质评分较低。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$citric.acid
## t = -0.6444, df = 4896, p-value = 0.5193
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.03720595  0.01880221
## sample estimates:
##          cor 
## -0.009209091

柠檬酸含量与品质评分之间较难看出规律。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$residual.sugar
## t = -6.8603, df = 4896, p-value = 7.724e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.12524103 -0.06976101
## sample estimates:
##         cor 
## -0.09757683

大部分样品含糖量较低,残留糖量与品质评分之间较难看出联系。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$chlorides
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2365501 -0.1830039
## sample estimates:
##        cor 
## -0.2099344

葡萄酒中氯化物(氯化钠)含量越高,品质评分越低。

## 
##  Pearson's product-moment correlation
## 
## data:  white_wine$quality and white_wine$sulphates
## t = 3.7613, df = 4896, p-value = 0.000171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.02571007 0.08156172
## sample estimates:
##        cor 
## 0.05367788

较难看出硫酸盐含量与葡萄酒品质评分之间的规律。

2.2 双变量分析小结

  • 双变量探索过程中发现糖含量与密度,乙醇含量与密度均呈现较强的线性关系。
  • 葡萄酒品质评分主要为感官评价,因此葡萄酒中对味觉和嗅觉易产生较强烈刺激的成分可能会直接影响品质评分。
  • 分析中发现乙醇含量较高的葡萄酒品质评分可能更高,非游离二氧化硫含量高的葡萄酒品质评分可能更低。同时,挥发性酸散发的酸性气体以及较高的总酸含量则可能导致较低的品质评分。一个有趣的发现是,葡萄酒中含有氯化钠,也就是食盐,“太咸”的葡萄酒应该是不受欢迎的。

3 多变量探索部分

对于多个变量之间的关系,我有两个较感兴趣的探索方向,一是各化学成分与密度之间的关系,二是能产生独特味道的成分与品质评分之间的关系,接下来分别进行探索。

3.1 影响密度的因素

乙醇和密度有密切关系,将乙醇作为分类变量。

##   0%  25%  50%  75% 100% 
##  8.0  9.5 10.4 11.4 14.2
##   (7.5,9.5]  (9.5,10.4] (10.4,11.4] (11.4,14.2] 
##        1436        1137        1190        1135

可以看到乙醇含量高的样品密度往往较低,非游离二氧化硫则与密度呈正相关。

整体而言,氯化物含量越高的样品密度越大。

由上图可以看出,乙醇含量高的样品,残余糖分往往较少,而且密度相对较低。
葡萄酒是通过发酵产生的,随着发酵的进行,糖分逐渐减少,发酵产物乙醇逐渐增多,葡萄酒中乙醇的比例上升,葡萄酒的密度随之下降,上图较好地展现了发酵过程中糖、乙醇、密度变化的规律。

当然,葡萄酒中各类化学成分应该都会葡萄酒密度产生一定影响,非气态化学成分包括非挥发性酸、残余糖分、氯化物、硫酸盐、乙醇和非游离二氧化硫,尝试构建线性模型进行验证。

## 
## Call:
## lm(formula = density ~ fixed.acidity + residual.sugar + chlorides + 
##     sulphates + alcohol + fixed.sulfur.dioxide, data = white_wine)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -0.0035787 -0.0004155 -0.0000986  0.0003157  0.0240678 
## 
## Coefficients:
##                        Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)           9.980e-01  1.705e-04 5854.022  < 2e-16 ***
## fixed.acidity         5.266e-04  1.246e-05   42.277  < 2e-16 ***
## residual.sugar        3.521e-04  2.351e-06  149.750  < 2e-16 ***
## chlorides             3.087e-03  5.124e-04    6.024 1.83e-09 ***
## sulphates             1.970e-03  9.213e-05   21.380  < 2e-16 ***
## alcohol              -1.103e-03  1.058e-05 -104.195  < 2e-16 ***
## fixed.sulfur.dioxide  6.038e-06  3.428e-07   17.617  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0007262 on 4891 degrees of freedom
## Multiple R-squared:  0.9411, Adjusted R-squared:  0.941 
## F-statistic: 1.303e+04 on 6 and 4891 DF,  p-value: < 2.2e-16

各成分均显示出强显著性,R^2为0.941,p值极小,该结果符合预期。

3.2 影响品质的因素

在双变量探索部分发现乙醇与品质有一定关联,而密度、残余糖分、非游离二氧化硫、氯化物又与乙醇有一定关联,以此为主要思路进行延伸探索。

从数据点的分布情况来看,密度、残余糖分、非游离二氧化硫、氯化物均在一定程度上与乙醇呈负相关,与品质评分似乎也均呈负相关,总体来说关系不是非常明确。

考虑到感官评分会受到很多因素的影响,尝试使用所有的理化指标构建多元线性模型,探索对葡萄酒品质的影响。

## 
## Calls:
## mo1: lm(formula = quality ~ density, data = white_wine)
## mo2: lm(formula = quality ~ density + alcohol, data = white_wine)
## mo3: lm(formula = quality ~ density + alcohol + residual.sugar, data = white_wine)
## mo4: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity, 
##     data = white_wine)
## mo5: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity, data = white_wine)
## mo6: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid, data = white_wine)
## mo7: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid + chlorides, data = white_wine)
## mo8: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide, 
##     data = white_wine)
## mo9: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide + 
##     total.sulfur.dioxide, data = white_wine)
## mo10: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide + 
##     total.sulfur.dioxide + pH, data = white_wine)
## mo11: lm(formula = quality ~ density + alcohol + residual.sugar + fixed.acidity + 
##     volatile.acidity + citric.acid + chlorides + free.sulfur.dioxide + 
##     total.sulfur.dioxide + pH + sulphates, data = white_wine)
## 
## ==================================================================================================================================================================================
##                             mo1           mo2           mo3           mo4           mo5           mo6           mo7           mo8           mo9           mo10          mo11      
## ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
##   (Intercept)              96.277***    -22.492***     90.313***     77.152***     52.814***     52.958***     51.392***     50.901***     49.144***    118.471***    150.193***  
##                            (4.003)       (6.165)      (12.374)      (14.178)      (13.739)      (13.765)      (13.802)      (13.760)      (14.279)      (18.187)      (18.804)    
##   density                 -90.942***     24.728***    -87.886***    -74.565***    -49.874***    -50.021***    -48.356***    -48.108***    -46.328**    -118.102***   -150.284***  
##                            (4.027)       (6.079)      (12.317)      (14.170)      (13.732)      (13.759)      (13.801)      (13.759)      (14.291)      (18.448)      (19.075)    
##   alcohol                                 0.360***      0.246***      0.260***      0.310***      0.310***      0.306***      0.313***      0.313***      0.231***      0.193***  
##                                          (0.015)       (0.018)       (0.020)       (0.019)       (0.019)       (0.019)       (0.019)       (0.019)       (0.024)       (0.024)    
##   residual.sugar                                        0.053***      0.049***      0.045***      0.045***      0.044***      0.041***      0.040***      0.069***      0.081***  
##                                                        (0.005)       (0.006)       (0.005)       (0.005)       (0.005)       (0.005)       (0.006)       (0.007)       (0.008)    
##   fixed.acidity                                                      -0.029        -0.047**      -0.048**      -0.050**      -0.042**      -0.042**       0.042*        0.066**   
##                                                                      (0.015)       (0.015)       (0.015)       (0.015)       (0.015)       (0.015)       (0.021)       (0.021)    
##   volatile.acidity                                                                 -2.081***     -2.078***     -2.057***     -1.994***     -1.984***     -1.910***     -1.863***  
##                                                                                    (0.109)       (0.110)       (0.111)       (0.112)       (0.114)       (0.114)       (0.114)    
##   citric.acid                                                                                     0.017         0.035        -0.005        -0.003         0.047         0.022     
##                                                                                                  (0.095)       (0.096)       (0.096)       (0.096)       (0.096)       (0.096)    
##   chlorides                                                                                                    -0.819        -0.923        -0.920        -0.376        -0.247     
##                                                                                                                (0.544)       (0.543)       (0.543)       (0.548)       (0.547)    
##   free.sulfur.dioxide                                                                                                         0.004***      0.004***      0.004***      0.004***  
##                                                                                                                              (0.001)       (0.001)       (0.001)       (0.001)    
##   total.sulfur.dioxide                                                                                                                     -0.000        -0.000        -0.000     
##                                                                                                                                            (0.000)       (0.000)       (0.000)    
##   pH                                                                                                                                                      0.646***      0.686***  
##                                                                                                                                                          (0.106)       (0.105)    
##   sulphates                                                                                                                                                             0.631***  
##                                                                                                                                                                        (0.100)    
## ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
##   R-squared                 0.094         0.192         0.210         0.211         0.265         0.265         0.266         0.270         0.271         0.276         0.282     
##   adj. R-squared            0.094         0.192         0.210         0.210         0.265         0.265         0.265         0.269         0.269         0.275         0.280     
##   sigma                     0.843         0.796         0.787         0.787         0.759         0.760         0.759         0.757         0.757         0.754         0.751     
##   F                       509.911       583.290       434.085       326.640       353.579       294.596       252.899       226.580       201.396       186.351       174.344     
##   p                         0.000         0.000         0.000         0.000         0.000         0.000         0.000         0.000         0.000         0.000         0.000     
##   Log-likelihood        -6111.983     -5831.127     -5776.812     -5775.006     -5599.094     -5599.079     -5597.945     -5582.289     -5582.183     -5563.494     -5543.740     
##   Deviance               3478.689      3101.773      3033.737      3031.500      2821.384      2821.367      2820.061      2802.090      2801.968      2780.668      2758.329     
##   AIC                   12229.967     11670.255     11563.624     11562.012     11212.189     11214.158     11213.891     11184.579     11186.366     11150.988     11113.480     
##   BIC                   12249.456     11696.241     11596.107     11600.991     11257.665     11266.130     11272.360     11249.545     11257.828     11228.947     11197.936     
##   N                      4898          4898          4898          4898          4898          4898          4898          4898          4898          4898          4898         
## ==================================================================================================================================================================================

建模结果并不理想,相关性较弱,R^2最高也只有0.282, 原因可能是其他一些影响葡萄酒品质的因素并未包含在本数据集中,又或者是应该使用非线性模型。

3.3 多变量分析小结

  • 对糖分、乙醇、密度三者的关系进行了进一步探索,糖分与密度呈正相关,乙醇与密度呈负相关,糖分与乙醇呈负相关。可联系葡萄酒发酵机理进行解释,发酵过程中糖逐渐被微生物利用,产生乙醇,发酵液密度也随之下降。
  • 构建葡萄酒中几类成分与密度关系的线性模型,模型显著性强,验证了关于影响密度因素的推测。
  • 对乙醇、密度、非游离二氧化硫、氯化物酸与葡萄酒品质评分的关系进行探索,从图中观察乙醇含量高的葡萄酒评分可能更高,密度较小、氯化物、残余糖分和非游离二氧化硫含量较低的葡萄酒评分可能更高。
  • 尝试使用数据集中各类理化指标构建与品质评分的线性模型,但是结果不理想,可能还需要其他相关数据来辅助构建,或者需要更换模型类型。

4 定稿图与总结

4.1.1 绘图一

4.1.2 描述一

图1展现白葡萄酒品质评分分布情况,由图中可以看出,大部分样品品质评分集中在5-7之间,品质评分为3和9的样品极少。

4.2.1 绘图二

4.2.2 描述二

图2展现白葡萄酒密度与残余糖分含量间的关系,由图中看出两者呈明显线性关系,残余糖分越多的样品,其密度也相应越大,另外两者的皮尔森相关系数达0.839。

4.3.1 绘图三

4.3.2 描述三

图3展示了乙醇、密度、残余糖分三者间的关系,绘图区右下角和左上角形成鲜明对比,残余糖分含量低的样品密度也相对较低,但是其乙醇含量往往较高。上图较好地验证了葡萄酒产生原理,在发酵过程中糖分逐渐被微生物利用,产生乙醇。


5 反思

本次分析中我发现了一些有趣的情况,比如残余糖分和乙醇呈负相关,乙醇比例更高的葡萄酒密度更低且评分可能更高。我原本最想探索的是各理化指标对葡萄酒品质评分的影响并构建出模型,但是在双变量以及多变量分析过程中只发现了个别指标可能对品质评分有影响,并未获得比较理想的分析结果,有些遗憾。但是我想这可能也会是进行数据分析工作时比较常见的情况,对此应当有正确的认识,我也相信不断提升数据分析技能将会使以后的分析工作更加顺利。

在完成本报告的过程中,我更加熟悉了使用R语言进行探索性数据分析流程以及一些常用操作,使用了一些函数对数据进行整理,尝试绘制不同类型的图形并对其进行美化从而更好的展现可视化效果。与此同时,我也深深感到自己使用R语言不够熟练,R语言确实是一款很优秀的数据分析以及可视化软件,值得好好探索。今后需要继续深入学习,通过不断实践来提高。


数据集来源:
P. Cortez, A. Cerdeira, F.Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553.
参考资料:
http://blog.sina.com.cn/s/blog_8cad55d90102x3yg.html
https://www.douban.com/note/579291905/
http://wine.baike.com/article-1255727.html